2024-10

Transformer 引导协同进化:改进多智能体对抗游戏中的团队组建

分类: 人工智能, 多代理系统, 神经和进化计算

作者: Pranav Rajbhandari, Prithviraj Dasgupta, Donald Sofge

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13769v1

摘要: 我们考虑多智能体对抗游戏中的团队组建问题。我们提出了 BERTeam,这是一种新颖的算法,它使用基于 Transformer 的深度神经网络和 Masked Language Model 训练来从受过训练的群体中选择最好的玩家团队。我们将其与共同进化深度强化学习相结合,后者训练一组不同的个人玩家来选择团队。我们在多智能体对抗游戏 Marine Capture-The-Flag 中测试了我们的算法,我们发现 BERTeam 学习到了非平凡的团队组成,这些团队组成在对抗看不见的对手时表现良好。对于这款游戏,我们发现 BERTeam 的表现优于 MCAA,后者是一种类似地优化团队组建的算法。

利用图神经网络驱动的 LLM 驱动的多智能体系统进行快速、自动化的合金设计

分类: 材料科学, 无序系统和神经网络, 介观和纳米物理, 人工智能, 多代理系统

作者: Alireza Ghafarollahi, Markus J. Buehler

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13768v1

摘要: 多智能体人工智能模型用于自动发现新的金属合金,整合多模态数据和外部知识,包括通过原子模拟获得的物理学见解。我们的多智能体系统具有三个关键组件:(a) 一套负责推理和规划等任务的大语言模型,(b) 一组具有不同角色和动态协作专业知识的人工智能智能体,以及 (c) 新开发的用于快速检索关键物理特性的图神经网络(GNN)模型。一组 LLM 驱动的 AI 代理在 GNN 预测的指导下协作,自动探索 MPEA 的广阔设计空间。我们专注于 NbMoTa 系列体心立方 (bcc) 合金,使用基于 ML 的原子间势进行建模,并瞄准两个关键属性:Peierls 势垒和溶质/螺旋位错相互作用能。我们的 GNN 模型可以准确预测这些原子尺度的属性,为昂贵的强力计算提供更快的替代方案,并减轻多智能体系统物理检索的计算负担。该人工智能系统通过减少对人类专业知识的依赖并克服直接全原子模拟的局限性,彻底改变了材料发现。通过将 GNN 的预测能力与基于 LLM 的代理的动态协作相结合,该系统可以自主导航巨大的合金设计空间,识别原子尺度材料特性的趋势并预测宏观尺度机械强度,正如多项计算实验所证明的那样。这种方法加速了先进合金的发现,并有望在其他复杂系统中得到更广泛的应用,标志着自动化材料设计向前迈出了重要一步。

MobA:用于高效移动任务自动化的两级代理系统

分类: 多代理系统, 人工智能, 计算和语言, 人机交互

作者: Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13757v1

摘要: 当前的移动助手受到对系统API的依赖的限制,或者由于理解和决策能力有限而难以应对复杂的用户指令和多样化的界面。为了应对这些挑战,我们提出了 MobA,这是一种由多模式大语言模型提供支持的新型手机代理,通过复杂的两级代理架构增强理解和规划能力。高级全局代理(GA)负责理解用户命令、跟踪历史记忆和规划任务。低级本地代理 (LA) 在子任务和 GA 内存的指导下,以函数调用的形式预测详细动作。集成反射模块可以高效完成任务,并使系统能够处理以前未见过的复杂任务。 MobA 在现实生活评估中展示了任务执行效率和完成率的显着提高,凸显了 MLLM 支持的移动助手的潜力。

EFX 适用于三种类型的代理

分类: 计算机科学与博弈论, 多代理系统

作者: Vishwa Prakash H. V., Pratik Ghosal, Prajakta Nimbhorkar, Nithin Varma

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13580v1

摘要: 在本文中,我们研究了在多个代理之间找到不可分割的商品的无嫉妒分配的问题。 EFX 代表无嫉妒分配问题,是一种经过充分研究的缓解无嫉妒分配问题的方法,并且已被证明适用于特定场景。例如,当只有三个代理时,已知 EFX 存在 [Chaudhury et al, EC 2020],并且当只有两种评估类型时,对于任意数量的代理都存在 [Mahara, Discret.应用。数学 2023]。我们证明,当最多存在三种类型的附加估值时,任意数量的代理都存在 EFX 分配。

通过自触发混合检测方法实现多智能体的拜占庭弹性输出优化

分类: 系统与控制, 多代理系统, 系统与控制

作者: Chenhang Yan, Liping Yan, Yuezu Lv, Bolei Dong, Yuanqing Xia

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13454v1

摘要: 如何在未知攻击尤其是拜占庭攻击的情况下实现精确的分布式优化是多智能体系统面临的关键挑战之一。本文解决了面临对抗性威胁的线性异构多智能体系统的分布式弹性优化。我们建立了一个框架,旨在通过结合新颖的自触发混合检测方法来实现连续时间系统的弹性优化。所提出的混合检测方法能够使用错误阈值和触发间隔来识别对邻居的攻击,从而优化有效攻击检测和减少过度通信触发之间的平衡。通过使用基于边缘的自适应自触发方法,每个代理可以接收其邻居的信息并确定这些信息是否有效。如果任何邻居被证明无效,每个正常代理将通过断开沿该特定边缘的通信来隔离该邻居。重要的是,即使代理被其邻居隔离,我们的自适应算法也能保证优化解决方案的准确性。

使用无人机和增强现实技术实时查看墙后的情况

分类: 多代理系统, 计算机视觉和模式识别, 人机交互

作者: Sikai Yang, Kang Yang, Yuning Chen, Fan Zhao, Wan Du

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13139v1

摘要: 这项工作提出了 ARD2,这是一个使用两架无人机和增强现实 (AR) 设备实现实时穿墙监视的框架。 ARD2由两个主要步骤组成:目标方向估计和轮廓重建。在第一阶段,ARD2 利用无人机、用户和目标之间的几何关系将目标的方向投影到用户的 AR 显示器上。在第二阶段,合成来自无人机的图像以重建目标的轮廓,使用户能够可视化墙后的目标。实验结果证明了系统在方向估计和轮廓重建方面的准确性。

HEnRY:多域上下文的多代理系统框架

分类: 多代理系统, 人工智能, 分布式、并行和集群计算

作者: Emmanuele Lacavalla, Shuyi Yang, Riccardo Crupi, Joseph E. Gonzalez

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12720v1

摘要: 该项目名为 HEnRY,旨在将多代理系统 (MAS) 引入 Intesa Sanpaolo。 HEnRY这个名字概括了该项目的核心原则:以分层结构对代理进行分层组织,以实现高效的资源管理;高效优化资源和运营,提升整体绩效;主体对环境刺激快速反应的反应能力;提高代理人处理突发情况的适应性和灵活性。讨论涵盖了两个不同的研究路径:第一个关注系统架构,第二个关注代理之间的协作。这项工作并不局限于联合圣保罗银行背景下的具体结构;相反,它利用 MAS 的现有研究来引入新的解决方案。由于联合圣保罗银行是根据符合国际公司治理最佳实践的模型进行组织的,因此这种方法也可能适用于类似的情况。

探索合并大型语言模型的模型亲缘关系

分类: 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习, 多代理系统

作者: Yedi Hu, Yunzhi Yao, Ningyu Zhang, Shumin Deng, Huajun Chen

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12613v1

摘要: 模型合并已成为增强大型语言模型(LLM)能力和效率的关键技术之一。然而,我们对合并任意两个模型时的预期性能增益和原理的理解仍然有限。在这项工作中,我们引入了模型亲属关系,即大语言模型之间的相似性或相关性程度,类似于生物进化。通过综合的实证分析,我们发现模型亲缘关系与模型合并后的性能增益之间存在一定的关系,这可以帮助指导我们对候选模型的选择。受此启发,我们提出了一种新的模型合并策略:Top-k Greedy Merging with Model Kinship,它可以在基准数据集上产生更好的性能。具体来说,我们发现使用模型亲缘关系作为标准可以帮助我们不断进行模型合并,减轻模型进化中的退化(局部最优),而模型亲缘关系可以作为逃脱这些陷阱的指南。代码可在 https://github.com/zjunlp/ModelKinship 获取。

标量离散时间线性二次博弈中的纳什均衡

分类: 计算机科学与博弈论, 多代理系统

作者: Giulio Salizzoni, Reda Ouhamma, Maryam Kamgarpour

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12544v1

摘要: 线性二次 (LQ) 博弈中的一个悬而未决的问题是描述纳什均衡。鉴于理解动态游戏中学习算法收敛性的工作激增,这个问题重新变得重要起来。本文研究了两个智能体的标量离散时间无限范围 LQ 博弈。即使在这个可以说是简单的设置中,也没有找到 $\textit{all}$ 纳什均衡的结果。通过分析最佳响应图,我们制定了表征线性反馈纳什均衡的多项式方程组。这使我们能够引入代数几何的工具,特别是 Grobner 基,来研究这个多项式系统的根。因此,我们不仅可以数值计算所有纳什均衡,而且还可以用显式条件来表征它们的数量例如,我们证明所考虑的 LQ 博弈最多允许三个纳什均衡。我们进一步提供了最多两个纳什均衡存在的充分条件,以及纳什均衡的唯一性的充分条件。超越我们的界限,并展示具有两个以上代理的环境中日益增加的复杂性。

多智能体顺序决策中的反事实效应分解

分类: 人工智能, 多代理系统

作者: Stelios Triantafyllou, Aleksa Sukovic, Yasaman Zolfimoselo, Goran Radanovic

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12539v1

摘要: 我们解决了解释多智能体马尔可夫决策过程中反事实结果的挑战。特别是,我们的目标是通过代理行为对环境动态和代理行为的影响来解释代理行为对已实现场景结果的总体反事实影响。为了实现这一目标,我们引入了一种新颖的因果解释公式,该公式通过为每个代理和状态变量分配一个反映其各自对效果贡献的分数来分解反事实效果。首先,我们表明代理行为的总反事实效果可以分解为两个组成部分:一个部分测量通过所有后续代理行为传播的效果,另一个与通过状态转换传播的效果相关。基于因果贡献分析的最新进展,我们进一步将这两种影响分解如下。对于前者,我们考虑特定于主体的效应——一个因果概念,它量化通过主体子集传播的主体行为的反事实效应。基于这个概念,我们使用 Shapley 值将效果归因于各个代理。对于后者,我们考虑结构保持干预的概念,并根据状态变量的“内在”贡献将效果归因于状态变量。通过广泛的实验,我们通过 LLM 辅助代理和败血症管理模拟器证明了 Gridworld 环境中分解方法的可解释性。

Aegis:基于LLM的先进多智能体智能功能安全工程

分类: 多代理系统

作者: Lu Shi, Bin Qi, Jiarui Luo, Yang Zhang, Zhanzhao Liang, Zhaowei Gao, Wenke Deng, Lin Sun

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12475v2

摘要: 功能安全是汽车工程的一个重要方面,涵盖车辆生命周期的所有阶段,包括设计、开发、生产、运营和退役。该领域涉及知识高度密集的任务。本文介绍了 Aegis:一种基于 LLM 的高级智能功能安全工程多代理。 Aegis 专为支持汽车行业复杂的功能安全任务而设计。它专为执行危险分析和风险评估 (HARA)、记录功能安全要求 (FSR) 以及规划自动紧急制动 (AEB) 系统的测试用例而量身定制。最先进的版本 Aegis-Max 利用检索增强生成 (RAG) 和反射机制来增强其管理复杂、知识密集型任务的能力。此外,专业功能安全从业人员有针对性的及时改进可以显着优化神盾在功能安全领域的表现。本文展示了 Aegis 在提高汽车工程功能安全流程的效率和有效性方面的潜力。

通过事实主观意识推理提高 LLM 交易绩效

分类: 多代理系统

作者: Qian Wang, Yuchen Gao, Zhenheng Tang, Bingqiao Luo, Bingsheng He

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12464v2

摘要: 虽然许多研究证明更高级的大语言模型在数学和编码等任务上表现更好,但我们注意到在加密货币交易中,较强的大语言模型通常比较弱的大语言模型表现更差。为了研究这种反直觉现象是如何发生的,我们研究了大语言模型在做出交易决策时的推理过程。我们发现,将推理过程分为事实部分和主观部分可以带来更高的利润。基于这一见解,我们引入了一个多代理框架 FS-ReasoningAgent,它使大语言模型能够识别事实和主观推理并从中学习。大量实验表明,该框架增强了 LLM 在加密货币市场中的交易性能。此外,消融研究表明,依赖主观新闻往往会在牛市中产生更高的回报,而关注事实信息在熊市中会产生更好的结果。我们的代码和数据可在 \url{https://anonymous.4open.science/r/FS-ReasoningAgent-B55F/} 获取。

多智能体寻路的走廊生成算法

分类: 多代理系统

作者: Arseniy Pertzovsky

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12397v1

摘要: 在本文中,我们解决了经典的多智能体寻路(MAPF)问题。现有方法很难解决密集的 MAPF 实例。在本文中,我们提出了一种 MAPF 的走廊生成算法,即 CGA-MAPF。在 CGA-MAPF 中,智能体构建 \emph{corridors},即一组连接的顶点,从当前位置朝向智能体的目标,并将其他智能体疏散出走廊,以避免碰撞和死锁。所提出的算法具有可达性,即每个智​​能体都保证在某个时刻到达其目标位置。在实验部分,我们证明了 CGA-MAPF 在不同 MAPF 基准网格的成功率方面优于基线算法,实现了最先进的性能。

使用受保护的属性来考虑多代理系统中的公平性

分类: 多代理系统, 人工智能

作者: Gabriele La Malfa, Jie M. Zhang, Michael Luck, Elizabeth Black

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12889v1

摘要: 多智能体系统(MAS)中的公平性已被广泛研究,特别是在货物分配、资源分配、彩票和讨价还价系统等场景中智能体之间的奖励分配。 MAS 的公平性取决于多种因素,包括系统的治理规则、代理人的行为及其特征。然而,人类社会的公平通常涉及在平等、多样性和包容性 (EDI) 原则的指导下评估弱势群体和特权群体之间的差异。受算法公平性研究的启发,算法公平性解决了基于机器学习的决策中的偏见问题,我们将 MAS 的受保护属性定义为不应在预期奖励方面对代理不利的特征。我们将算法公平性文献中的公平性指标——即人口统计平等、反事实公平和条件统计平等——应用到多智能体环境中,即自利智能体在环境中进行交互。这些指标使我们能够评估 MAS 的公平性,最终目标是设计不会基于受保护属性对代理不利的 MAS。

拍卖中的时间变化打破了收入等价性

分类: 计算机科学与博弈论, 多代理系统, 理论经济学, 动力系统

作者: Yuma Fujimoto, Kaito Ariu, Kenshi Abe

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12306v1

摘要: 拍卖是最具代表性的买卖制度之一。一项著名的研究表明,无论拍卖类型如何(通常是第一价格拍卖和第二价格拍卖),卖方的预期收入在均衡状态下都是相等的。然而,在这里,我们假设当某些拍卖环境随时间变化时,这种收入等价性可能无法维持。在第二价格拍卖中,均衡策略是稳健可行的。相反,在最高价拍卖中,买家必须根据拍卖环境不断调整策略。令人惊讶的是,我们证明收入等价可以在两个方向上被打破。根据具体情况,第一价格拍卖比第二价格拍卖带来的收入更大或更小,具体取决于物品价值的变化。我们的实验还证明了各种场景下的收入不平等,其中值周期性或随机变化。这项研究揭示了一种现象,即拍卖中的时间变化打破了收入等价性,这种现象很可能发生在现实世界的拍卖中,揭示了其潜在机制。

在线投票中的选民参与控制

分类: 多代理系统, 计算机科学与博弈论

作者: Koustav De, Palash Dey, Swagato Sanyal

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12256v1

摘要: 新闻媒体、调查员和其他组织经常在社交网络上进行民意调查,以深入了解公众舆论。此类民意调查通常由社交网络上的某个人发起,并将其发送给她的朋友。如果一个人参与投票,投票信息就会发布在她的墙上,这反过来又使她的朋友能够参与,并且该过程继续进行。最终,一部分人口参与民意调查,民意调查人员了解民意调查的结果。我们发起了对此类在线选举中一种新的但自然的选举控制类型的研究。我们研究了任何恶意影响者通过推动/贿赂人们看似无害的行为(例如不参与)来影响此类民意调查的结果对某人有利/反对(又称建设性与破坏性)有多困难/容易。从研究网络投票对恶意行为的抵抗力的角度来看,这些问题很重要。破坏性版本对于量化在线投票获胜者的稳健性也很重要。我们证明,即使选举只有两名候选人,并且影响者有无数的钱可以花(也就是说,每个选民都可以被说服不参与),这两个问题在计算上都是难以解决的。我们通过证明即使底层网络是树,计算任务仍然具有很大的挑战性,来强化这一结果。最后,我们证明,当我们有 O(1) 个候选者且底层图的树宽为 O(1) 时,存在用于问题的构造版本的多项式时间算法;破坏性版本的算法甚至不需要假设 O(1) 数量的候选者。因此,我们观察到破坏性版本在计算上比建设性版本更容易。

分析设施位置游戏的有序加权平均的激励和公平性

分类: 计算机科学与博弈论, 多代理系统, 理论经济学

作者: Kento Yoshida, Kei Kimura, Taiki Todo, Makoto Yokoo

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12884v1

摘要: 设施选址游戏提供了机制设计的抽象模型。在此类游戏中,一种机制将一段时间内的 $n$ 个单峰偏好概况作为输入,并确定设施在该区间上的位置。在本文中,我们将注意力限制在基于距离的单峰偏好上,并重点关注一类众所周知的参数化机制,称为有序加权平均方法,该方法由 Yager 于 1988 年提出,包含多种实际实现,例如标准平均和奥林匹克平均水平。我们从激励和公平两个方面全面分析他们的表现。更具体地说,我们对其参数提供了充分必要条件,以分别实现策略证明性、非明显可操纵性、个人公平份额和比例公平性。

MFC-EQ:使用包络 Q 学习的平均场控制,用于移动编队中的分散代理

分类: 机器人技术, 人工智能, 机器学习, 多代理系统

作者: Qiushi Lin, Hang Ma

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12062v1

摘要: 我们研究了移动代理编队(MAiF)的分散版本,这是多代理路径查找的一种变体,旨在为多个代理规划无碰撞路径,其双重目标是快速实现目标,同时保持所需的编队。代理人必须在部分观察和有限沟通的条件下平衡这些目标。编队维持取决于所有智能体的联合状态,其维度随着智能体数量呈指数级增长,使得学习过程变得棘手。此外,学习可以适应这两个目标的不同线性偏好的单一策略提出了重大挑战。在本文中,我们提出了带有包络$Q$学习的平均场控制(MFC-EQ),这是一个针对这种双目标多智能体问题的可扩展且适应性强的学习框架。我们使用平均场理论来近似所有智能体的动态,同时通过包络 $Q$ 学习来学习通用的偏好不可知策略。我们在众多实例中对 MFC-EQ 的实证评估表明,它的性能优于最先进的集中式 MAiF 基线。此外,MFC-EQ 可以有效处理更复杂的场景,其中所需的队形会动态变化,这是现有 MAiF 规划人员无法解决的挑战。

G-Designer:通过图神经网络构建多代理通信拓扑

分类: 多代理系统, 机器学习

作者: Guibin Zhang, Yanwei Yue, Xiangguo Sun, Guancheng Wan, Miao Yu, Junfeng Fang, Kun Wang, Dawei Cheng

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11782v1

摘要: 基于大型语言模型 (LLM) 的智能体的最新进展表明,集体智能可以显着超越单个智能体的能力,这主要归功于精心设计的智能体间通信拓扑。尽管有多种可用的高性能设计,但从业者在为其特定任务选择最有效的管道时经常面临困惑: \textit{哪种拓扑是我的任务的最佳选择,避免不必要的通信令牌开销,同时确保高质量的解决方案?为了应对这一困境,我们推出了 G-Designer,这是一种自适应、高效且强大的多代理部署解决方案,可动态设计任务感知、定制的通信拓扑。具体来说,G-Designer 将多智能体系统建模为多智能体网络,利用变分图自动编码器对节点(智能体)和特定于任务的虚拟节点进行编码,并解码任务自适应且高适应性的虚拟节点。执行通信拓扑。对六个基准测试的大量实验表明,G-Designer 具有: \textbf{(1) 高性能},在 MMLU 上取得了优异的结果,准确度为 $84.50%$,在 HumanEval 上取得了 pass@1 的优异结果,准确度为 $89.90%$; \textbf{(2) 任务自适应},构建适合任务难度的通信协议,在 HumanEval 上减少高达 $95.33%$ 的代币消耗;和 \textbf{(3) 对抗鲁棒性},防御代理对抗攻击,准确率仅下降 0.3%$。

利用蒙特卡罗树搜索改进 Q 函数的值估计并重塑奖励

分类: 机器学习, 人工智能, 多代理系统

作者: Jiamian Li

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11642v1

摘要: 强化学习在围棋和雅达利等完美信息游戏中取得了显着的成功,使代理能够与人类玩家进行最高水平的竞争。然而,由于博弈结构和随机性较为复杂,针对不完美信息博弈的强化学习研究相对有限。由于Q值估计不准确和奖励稀疏等问题,传统方法在不完美信息博弈中的训练和提高性能方面面临挑战。在本文中,我们关注 Uno 这种不完美信息博弈,旨在通过减少 Q 值高估和重塑奖励函数来解决这些问题。我们提出了一种利用蒙特卡罗树搜索来改进 Q 函数的值估计的新颖算法。尽管我们在本文中选择 Double Deep Q Learning 作为基础框架,但我们的方法可以推广并用于任何需要 Q 值估计的算法,例如 Actor-Critic。此外,我们采用蒙特卡罗树搜索来重塑游戏环境中的奖励结构。我们将我们的算法与应用于游戏的几种传统方法(例如 Double Deep Q Learning、Deep Monte Carlo 和 Neural Fictitious Self Play)进行了比较,实验表明我们的算法始终优于这些方法,特别是随着 Uno 中玩家数量的增加,表明更高的难度。

基于代理的老年人自主按需出行需求建模:加拿大温尼伯的案例研究

分类: 多代理系统

作者: Manon Prédhumeau, Ed Manley

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11416v1

摘要: 随着许多国家人口持续老龄化,确保老年人获得便捷且高效的交通选择已成为越来越重要的问题。自主按需出行(AMoD)系统已成为解决老年人日常出行需求的潜在解决方案。然而,估计老年人的行动需求,以及它们如何随空间和时间变化,对于有效规划和实施此类服务至关重要,而传统的四步方法缺乏充分考虑这些需求的粒度。为了应对这一挑战,我们在加拿大温尼伯提出了一种基于代理的老年人出行需求模型。该模型主要使用开放数据为 2022 年构建,并在多智能体传输模拟 (MATSim) 工具包中实施。经过校准以准确再现观察到的出行行为后,新的 AMoD 服务在模拟中进行了测试,并探索了其在温尼伯老年人中采用的可能性。该模型可以帮助政策制定者估计老年人口对上门交通的需求,并可以指导 AMoD 交通系统的设计。

STACKFEED:带反馈的结构化文本演员评论家知识库编辑

分类: 人工智能, 机器学习, 多代理系统

作者: Naman Gupta, Shashank Kirtania, Priyanshu Gupta, Krishna Kariya, Sumit Gulwani, Arun Iyer, Suresh Parthasarathy, Arjun Radhakrishna, Sriram K. Rajamani, Gustavo Soares

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10584v1

摘要: 大型语言模型 (LLM) 通常会生成不正确或过时的信息,特别是在资源匮乏的环境中或处理私有数据时。为了解决这个问题,检索增强生成(RAG)使用外部知识库(KB),但这些也可能会出现不准确的情况。我们介绍了 STACKFEED,一种新颖的结构化文本演员-评论家知识库编辑,采用反馈方法,使用多参与者、集中式评论家强化学习框架,根据专家反馈迭代地完善知识库。每个文档都被分配给一个角色,该角色被建模为 ReACT 代理,该代理根据来自集中批评者的特定于文档的目标指令执行结构化编辑。实验结果表明,STACKFEED 显着提高了 KB 质量和 RAG 系统性能,与基线相比,准确度提高了 8%。

使用多代理图注意力强化学习的内容缓存辅助车辆边缘计算

分类: 多代理系统, 新兴技术

作者: Jinjin Shen, Yan Lin, Yijin Zhang, Weibin Zhang, Feng Shu, Jun Li

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10071v1

摘要: 为了避免重复的任务卸载并实现流行任务计算结果的重用,我们构建了一种新颖的内容缓存辅助车辆边缘计算(VEC)框架。面对不规则的网络拓扑和未知的环境动态,我们进一步提出了一种基于多智能体图注意强化学习(MGARL)的边缘缓存方案,该方案利用图注意卷积核来整合每个智能体的相邻节点的特征,并进一步加强代理商之间的合作。我们的模拟结果表明,与基线相比,我们提出的方案能够提高缓存资源的利用率,同时减少长期任务计算延迟。

多大语言模型编排引擎,提供个性化、上下文丰富的帮助

分类: 多代理系统

作者: Sumedh Rasal

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.10039v1

摘要: 近年来,大型语言模型在自然语言理解和生成方面表现出了卓越的能力。然而,这些模型经常与幻觉作斗争并保持长期的上下文相关性,特别是在处理私人或本地数据时。本文提出了一种新颖的架构,通过集成利用多个 LLM 以及时态图数据库和矢量数据库的编排引擎来解决这些挑战。所提出的系统捕获用户交互,构建对话的图形表示,并存储随着时间的推移映射关键概念、实体和行为之间关联的节点和边。这种基于图形的结构使系统能够不断发展对用户偏好的理解,从而提供个性化且与上下文相关的答案。除此之外,矢量数据库对私有数据进行编码,以在需要时提供详细信息,从而允许大语言模型访问和合成复杂的响应。为了进一步提高可靠性,编排引擎协调多个大语言模型来生成全面的答案并迭代地反映其准确性。其结果是一个自适应的、以隐私为中心的人工智能助手,能够提供更深入、更相关的交互,同时最大限度地降低幻觉的风险。本文概述了该系统的架构、方法和潜在应用,为个性化、情境感知的人工智能辅助提供了新的方向。

Crowd IQ——聚合意见以提高绩效

分类: 多代理系统

作者: Michal Kosinski, Yoram Bachrach, Thore Graepel, Giergji Kasneci, Jurgen Van Gael

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.10004v1

摘要: 我们展示了如何使用标准智商问卷的个人回答样本来方便地研究基于人群汇总意见的决策质量。我们使用简单多数投票和基于概率图形模型的机器学习方法汇总了对智商调查问卷的回答。汇总问卷的分数“群体智商”可作为基于汇总意见的决策质量衡量标准,这还可以在同一范围内量化个人和群体的表现。我们表明,人群智商随着人群规模的增长而快速增长,但会饱和,并且对于小型同质人群,人群智商显着超过即使是最聪明的成员的智商。我们研究了聚合响应的替代方法以及聚合方法对结果群体智商的影响。我们还讨论了情境智商,这是一种基于合作博弈论的沙普利值来量化个体参与者对群体智商贡献的方法。

变形金刚作为游戏玩家:可证明的预训练模型的上下文游戏能力

分类: 机器学习, 计算机科学与博弈论, 信息论, 机器学习, 多代理系统, 信息论

作者: Chengshuai Shi, Kun Yang, Jing Yang, Cong Shen

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09701v1

摘要: 近年来,基于 Transformer 架构的预训练模型的上下文学习(ICL)能力越来越受到人们的关注。虽然强化学习(RL)中的 ICL 已经获得了理论理解,但之前的结果很大程度上局限于单智能体设置。这项工作建议进一步探索预训练 Transformer 模型在竞争性多智能体游戏(即上下文游戏(ICGP))中的上下文学习能力。着眼于经典的两人零和博弈,提供了理论保证来证明预先训练的变压器可以在分散式和集中式学习设置中以上下文方式学习近似纳什均衡。作为证明的关键部分,构建结果证明 Transformer 架构足够丰富,可以实现著名的多智能体博弈算法,特别是去中心化 V 学习和集中式 VI-ULCB。

两个脑袋比一个好:多智能体系统有潜力改善科学想法的产生

分类: 人工智能, 计算和语言, 计算机视觉和模式识别, 机器学习, 多代理系统

作者: Haoyang Su, Renqi Chen, Shixiang Tang, Xinzhe Zheng, Jingzhe Li, Zhenfei Yin, Wanli Ouyang, Nanqing Dong

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09403v1

摘要: 科学进步的快速发展需要能够加速发现的创新工具。虽然最近的人工智能方法,特别是大型语言模型(LLM),在假设生成和实验设计等任务中显示出了希望,但它们在复制现实世界科学实践的协作性质方面存在不足,在现实世界科学实践中,不同的专家团队共同努力解决问题复杂的问题。为了解决这一限制,我们提出了一种基于大语言模型的多智能体系统,即虚拟科学家(VirSci),旨在模仿科学研究中固有的团队合作。 VirSci 组织了一个代理团队来协作生成、评估和完善研究想法。通过全面的实验,我们证明这种多主体方法在产生新颖且有影响力的科学想法方面优于最先进的方法,显示出与科学领域的关键见解相一致的潜力。我们的研究结果表明,整合协作代理可以带来更具创新性的科学产出,为自主科学发现提供强大的系统。

两人正最短路径博弈在纯平稳策略中具有纳什均衡

分类: 离散数学, 多代理系统, 优化与控制, 91A05

作者: Endre Boros, Khaled Elbassioni, Vladimir Gurvich, Mikhail Vyalyi

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09257v1

摘要: 我们证明每个有限两人正最短路径博弈在纯平稳策略中都具有纳什均衡(NE),并且可以在多项式时间内计算。存在性结果也适用于具有有限出度的图。此外,如果两个玩家中至少有一个能够保证到达终端,我们证明终端NE存在。如果没有人能做到这一点,换句话说,如果两个玩家中的每一个都可以从初始位置 $s$ 切掉所有终端,那么显然存在一个循环 NE,尽管它的成本对于两个玩家来说都是无限的,因为我们限制了自己积极的游戏。我们推测,只要存在从 $s$ 到终端的有向路径,终端 NE 也存在。然而,这是开放的。

度量空间的孔多塞维数

分类: 计算机科学与博弈论, 多代理系统

作者: Alexandra Lassota, Adrian Vetta, Bernhard von Stengel

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09201v1

摘要: 孔多塞获胜集是一组候选人,其中没有其他候选人比该集的所有成员受到至少一半选民的青睐。孔多塞维数是孔多塞获胜集的最小基数,已知最多是候选数量的对数。我们研究了选举的情况,其中选民和候选人位于 $2$ 维空间中,其偏好基于邻近投票。我们的主要结果是,在曼哈顿范数和无穷大范数(选举制度中的自然衡量标准)下,孔多塞维数最多为 3 美元。我们还证明,任何一组选民偏好都可以嵌入到任何 $p$ 范数(包括曼哈顿范数和无穷范数)足够高维度的度量空间中。

自主网络防御中的多代理行为者批评家

分类: 密码学和安全, 人工智能, 多代理系统

作者: Mingjun Wang, Remington Dechene

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09134v1

摘要: 在快速发展的网络威胁环境中,对自主和自适应防御机制的需求已变得至关重要。多代理深度强化学习(MADRL)提供了一种有前途的方法来增强自主网络操作的效率和弹性。本文探讨了多智能体 Actor-Critic 算法的应用,该算法为网络防御多智能体学习提供了一种通用形式,利用多个智能体之间的协作交互来检测、减轻和响应网络威胁。我们证明每个代理都能够在模拟网络攻击场景中使用 MADRL 快速学习并自主应对威胁。结果表明,MADRL 可以显着增强自主网络防御系统的能力,为更智能的网络安全策略铺平道路。这项研究有助于不断丰富利用人工智能实现网络安全的知识体系,并为自主网络运营的未来研究和开发提供线索。

PEAR:由多个大型语言模型代理支持的强大而灵活的 Ptychography 自动化框架

分类: 计算工程、金融和科学, 人工智能, 计算和语言, 多代理系统

作者: Xiangyu Yin, Chuqiao Shi, Yimo Han, Yi Jiang

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09034v1

摘要: Ptychography 是 X 射线和电子显微镜中的一种先进计算成像技术。它已广泛应用于物理、化学、生物学和材料科学等科学研究领域以及半导体表征等工业应用中。在实践中,获得高质量的叠印图像需要同时优化大量实验和算法参数。传统上,参数选择通常依赖于反复试验,导致低吞吐量工作流程和潜在的人为偏差。在这项工作中,我们开发了“Ptychography 实验和分析机器人”(PEAR),这是一个利用大型语言模型 (LLM) 来自动进行 ptychography 数据分析的框架。为了确保高鲁棒性和准确性,PEAR 采用多个 LLM 代理来执行知识检索、代码生成、参数推荐和图像推理等任务。我们的研究表明,PEAR 的多智能体设计显着提高了工作流程的成功率,即使使用较小的开放权重模型(例如 LLaMA 3.1 8B)也是如此。 PEAR 还支持各种自动化级别,旨在与定制的本地知识库配合使用,确保跨不同研究环境的灵活性和适应性。

大语言模型群体中社会习俗的动态:自发出现、集体偏见和临界点

分类: 多代理系统, 人工智能, 计算机与社会, 物理与社会

作者: Ariel Flint Ashery, Luca Maria Aiello, Andrea Baronchelli

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08948v1

摘要: 社会习俗是社会经济生活的基础。随着大量人工智能代理之间以及与人类之间的互动日益增多,他们形成共同约定的能力将决定他们如何有效地协调行为、融入社会并影响社会。在这里,我们使用模拟交互来研究大型语言模型(LLM)代理群体内约定的动态。首先,我们表明全球接受的社会习俗可以自发地产生于交流大语言模型之间的本地互动。其次,我们展示了在此过程中如何出现强烈的集体偏见,即使个体代理人似乎没有偏见。第三,我们研究了坚定的大语言模型少数群体如何通过建立新的社会习俗来推动社会变革。我们证明,一旦这些少数群体达到临界规模,他们就能不断推翻既定的行为。在所有情况下,将实验结果与最小多智能体模型的预测进行对比,使我们能够分离出 LLM 智能体的具体作用。我们的结果阐明了人工智能系统如何在没有明确编程的情况下自主制定规范,并对设计符合人类价值观和社会目标的人工智能系统具有影响。

PILLAR:人工智能驱动的隐私威胁建模工具

分类: 密码学和安全, 多代理系统

作者: Majid Mollaeefar, Andrea Bissoli, Silvio Ranise

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08755v1

摘要: 大型语言模型(LLM)的快速发展为人工智能在包括隐私工程在内的广泛领域应用提供了新的可能性。随着现代应用程序越来越多地处理敏感的用户数据,保护隐私变得比以往任何时候都更加重要。为了有效保护隐私,需要在系统开发过程的早期识别和解决潜在威胁。像 LINDDUN 这样的框架提供了发现这些风险的结构化方法,但尽管它们很有价值,但它们通常需要大量的手动工作、专家输入和详细的系统知识。这使得该过程非常耗时并且容易出错。当前的隐私威胁建模方法(例如 LINDDUN)通常依赖于创建和分析复杂的数据流图 (DFD) 和系统描述来查明潜在的隐私问题。虽然这些方法很彻底,但它们可能很麻烦,严重依赖于用户提供的数据的精度。此外,它们经常会生成一长串威胁,而没有明确的指导来确定如何优先考虑这些威胁,从而使开发人员不确定将工作重点放在哪里。为了应对这些挑战,我们推出了 PILLAR(使用 LINDDUN 和 LLM 分析报告进行隐私风险识别),这是一种将大语言模型与 LINDDUN 框架集成的新工具,以简化和增强隐私威胁建模。 PILLAR 可自动执行 LINDDUN 流程的关键部分,例如生成 DFD、对威胁进行分类以及对风险进行优先级排序。通过利用大语言模型的功能,PILLAR 可以采用系统的自然语言描述,并将其转换为全面的威胁模型,只需最少的用户输入,减少开发人员和隐私专家的工作量,同时提高流程的效率和准确性。

边缘人工智能协作学习:不确定性估计的贝叶斯方法

分类: 机器学习, 分布式、并行和集群计算, 多代理系统, I.2.11

作者: Gleb Radchenko, Victoria Andrea Fill

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08651v1

摘要: 边缘计算的最新进展显着增强了物联网 (IoT) 设备的人工智能功能。然而,这些进步给知识交换和资源管理带来了新的挑战,特别是解决边缘计算环境中的时空数据局部性。这项研究探讨了在自主、具有网络功能、支持人工智能的边缘设备中部署分布式机器学习的算法和方法。我们专注于考虑独立代理遇到的数据的空间变异性来确定学习结果的置信水平。以协作制图为案例研究,我们探索了使用贝叶斯神经网络 (BNN) 扩展的分布式神经网络优化 (DiNNO) 算法进行不确定性估计的应用。我们使用 Webots 平台实现 3D 环境模拟来模拟协作映射任务,将 DiNNO 算法解耦为分布式学习中异步网络通信的独立进程,并使用 BNN 集成分布式不确定性估计。我们的实验表明,BNN 可以有效支持分布式学习环境中的不确定性估计,精确调整学习超参数对于有效的不确定性评估至关重要。值得注意的是,与其他正则化策略相比,应用 Kullback-Leibler 散度进行参数正则化可以使分布式 BNN 训练期间的验证损失减少 12-30%。

万花筒:异构多智能体强化学习的可学习掩模

分类: 机器学习, 人工智能, 多代理系统

作者: Xinran Li, Ling Pan, Jun Zhang

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08540v1

摘要: 在多智能体强化学习(MARL)中,参数共享通常用于提高样本效率。然而,流行的完全参数共享方法通常会导致代理之间的策略同质,从而可能限制策略多样性带来的性能优势。为了解决这个关键限制,我们引入了 \emph{Kaleidscope},一种新颖的自适应部分参数共享方案,它可以促进策略异质性,同时仍然保持高样本效率。具体来说,万花筒为不同的代理维护一组通用参数以及多组不同的、可学习的掩码,从而规定参数的共享。它通过鼓励这些掩码之间的差异来促进政策网络之间的多样性,而不牺牲参数共享的效率。这种设计使 Kaleidscope 能够动态平衡高样本效率和广泛的策略表示能力,有效地弥合各种环境中的全参数共享和非参数共享之间的差距。我们进一步将万花筒扩展到演员-评论家算法背景下的评论家集成,这有助于改善价值估计。我们在广泛的环境(包括多智能体粒子环境、多智能体 MuJoCo 和星际争霸多智能体挑战 v2)中进行的实证评估表明与现有的参数共享方法相比,Kaleidscope 具有优越的性能,展示了其在 MARL 中增强性能的潜力。该代码可在 \url{https://github.com/LXXXXR/Kaleidscope} 上公开获取。

CE-MRS:多机器人系统的对比解释

分类: 机器人技术, 人机交互, 多代理系统

作者: Ethan Schneider, Daniel Wu, Devleena Das, Sonia Chernova

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08408v1

摘要: 随着多机器人系统的复杂性不断增加,包含更多数量的机器人、更复杂的任务和更长的时间范围,此类问题的解决方案往往变得过于复杂,以至于人类用户无法完全理解。在这项工作中,我们引入了一种生成自然语言解释的方法,该方法可以向用户证明系统解决方案的有效性,或者帮助用户纠正导致次优系统解决方案的任何错误。为了实现这一目标,我们首先为多机器人系统提供一种可推广的对比解释形式,然后引入一种整体方法来为多机器人场景生成对比解释,该方法有选择地结合来自多机器人任务分配、调度和运动的数据。计划解释系统行为。通过与人类操作员的用户研究,我们证明我们的集成对比解释方法可以显着提高用户识别和解决系统错误的能力,从而显着提高整体多机器人团队的绩效。

通过强化学习探索基于自然语言的儿童高效数字学习策略

分类: 计算和语言, 人工智能, 机器学习, 多代理系统

作者: Tirthankar Mittra

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08334v1

摘要: 本文研究了儿童如何使用强化学习 (RL) 框架学习数字,重点关注语言指令的影响。使用强化学习的动机源于其与受控环境中的心理学习理论的相似之处。通过使用最先进的深度强化学习模型,我们模拟并分析了各种形式的语言指令对数字习得的影响。我们的研究结果表明,某些语言结构可以更有效地提高强化学习智能体的数字理解能力。此外,我们的模型还可以预测向 RL 代理呈现数字的最佳序列,从而提高其学习速度。这项研究为语言和数字认知之间的相互作用提供了宝贵的见解,对教育策略和旨在支持幼儿学习的人工智能系统的开发都有影响。

基于代理的建模,用于真实再现人类流动和接触行为,以评估流行性传染病传播中的测试和隔离策略

分类: 多代理系统, 分布式、并行和集群计算, 物理与社会, I.6.4; I.6.5; D.1.3

作者: David Kerkmann, Sascha Korf, Khoa Nguyen, Daniel Abele, Alain Schengen, Carlotta Gerstein, Jens Henrik Göbbert, Achim Basermann, Martin J. Kühn, Michael Meyer-Hermann

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08050v1

摘要: 基于代理的模型已被证明是支持不同应用领域的决策过程的有用工具。现代计算机和超级计算机的出现使这些自下而上的方法能够真实地模拟人类的移动和接触行为。 COVID-19 大流行表明迫切需要能够回答传播动力学研究问题的详细且信息丰富的模型。我们提出了一个复杂的基于代理的模型来模拟呼吸道疾病的传播。该模型高度模块化,可用于各种规模,从少量建筑物到城市或国家。尽管不是本文的重点,但该模型在单核上进行了性能工程,并为时间关键的决策过程提供了高效的仿真内和仿真间并行化。为了能够回答有关个体水平分辨率的研究问题,可以对特定地点或代理人实施非药物干预策略,例如戴口罩或关闭场所。特别是,我们允许采用复杂的测试和隔离策略来研究微创传染病缓解的效果。通过德国不伦瑞克地区的实际人员流动模式,我们研究了 2021 年 3 月 1 日至 5 月 30 日期间不同干预措施对 SARS-CoV-2 大流行的影响。我们的分析表明,如果有症状病例的暗值较高,则与症状无关的检测对缓解疾病动态的影响有限。此外,我们发现隔离时间长短比隔离效率更重要,但如果症状得到充分控制,短期隔离也能产生显着效果。

具有外部性的战略分类

分类: 计算机科学与博弈论, 人工智能, 机器学习, 多代理系统

作者: Yiling Chen, Safwan Hossain, Evi Micha, Ariel Procaccia

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08032v1

摘要: 我们提出了策略分类问题的一个新变体:委托人揭示一个分类器,$n$ 代理报告他们要分类的(可能被操纵的)特征。在现实世界应用的推动下,我们的模型至关重要地允许操纵一个代理来影响另一个代理;也就是说,它明确地捕捉了主体间的外部性。委托-代理交互被正式建模为 Stackelberg 博弈,并将由此产生的代理操纵动态捕获为同步博弈。我们证明,在某些假设下,该代理操纵博弈的纯纳什均衡是唯一的并且可以有效地计算。利用这一结果,为学习者建立了 PAC 学习保证:非正式地,我们表明,即使随机数量的代理正在操纵其方式达到纯纳什均衡,我们也可以学习最小化分布损失的分类器。我们还评论了通过基于梯度的方法对此类分类器的优化。这项工作为对分类器进行更现实的分析奠定了理论基础,这些分类器对于在公共环境中交互的多个战略参与者具有鲁棒性。

基于动态规划的有向图多智能体路径查找问题的局部搜索方法

分类: 多代理系统

作者: Irene Saccani, Stefano Ardizzoni, Luca Consolini, Marco Locatelli

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07954v1

摘要: 在次优多智能体路径查找 (MAPF) 求解器中,基于规则的算法特别有吸引力,因为它们是完整的。即使在拥挤的场景中,它们也可以找到可行的解决方案,使每个代理达到其目标,从而防止出现死锁情况。然而,一般来说,基于规则的算法提供的解决方案比最短的解决方案长得多。本文的主要贡献是引入了一种新的局部搜索过程来改进已知的可行解决方案。我们从一个可行的次优解开始,并在该解的邻域中执行局部搜索。如果我们能够找到更短的解决方案,我们将重复此过程,直到解决方案无法再缩短为止。最后,我们得到的解决方案仍然不是最优的,但通常比最初的解决方案质量要好得多。我们提出两种不同的本地搜索策略。首先,我们探索代理位置保持在参考解的相应位置附近的所有路径。在第二个中,我们设置了可以改变相对于参考解决方案的路径的代理数量的上限。这两种不同的政策也可以交替使用。我们通过动态规划来探索邻域。我们的搜索是局部的这一事实对于时间复杂度来说是至关重要的。事实上,如果将动态规划方法应用于完整的 MAPF 问题,探索状态的数量会随着智能体数量呈指数增长。相反,引入局部性约束允许在相对于代理数量呈多项式增长的时间内探索邻域。

代理工作流生成基准测试

分类: 计算和语言, 人工智能, 人机交互, 机器学习, 多代理系统

作者: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07869v1

摘要: 大型语言模型(LLM)以其处理各种任务的卓越能力,推动了推理和规划任务的显着进步,其中将复杂问题分解为可执行的工作流程是这一过程中的关键步骤。现有的工作流评估框架要么只关注整体性能,要么存在场景覆盖范围有限、工作流结构简单化、评估标准宽松等局限性。为此,我们推出了 WorFBench,一个具有多方面场景和复杂的图形工作流结构的统一工作流生成基准。此外,我们还推出了 WorFEval,这是一种系统评估协议,利用子序列和子图匹配算法来准确量化 LLM 代理的工作流程生成能力。通过对不同类型LLM的综合评估,我们发现LLM智能体的序列规划能力和图规划能力之间存在明显差距,甚至GPT-4也表现出15%左右的差距。我们还训练了两个开源模型,并评估它们在执行任务上的泛化能力。此外,我们观察到生成的工作流可以增强下游任务,使它们能够在推理过程中用更少的时间实现卓越的性能。代码和数据集可在 https://github.com/zjunlp/WorFBench 获取。

仇恨言论主持的聊天应用程序:GDPR 和 DSA 合规性用例

分类: 多代理系统, 计算机与社会, 社交和信息网络

作者: Jan Fillies, Theodoros Mitsikas, Ralph Schäfermeier, Adrian Paschke

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07713v1

摘要: 在线仇恨言论或有毒内容的检测是一个复杂而敏感的问题。虽然身份识别本身高度依赖于具体情况,但出于隐私考虑,年龄、语言和国籍等敏感的个人属性很少可用。此外,平台在网络仇恨言论和基于其内部道德规范的内容评估方面与广泛的当地司法管辖区进行斗争。这项研究提出了一种新颖的方法,展示了符合 GDPR 的应用程序能够在内容审核过程中实施法律和道德推理。该应用程序通过利用用户信息来增加审核决策的可解释性。提出并使用 GPT-3.5、Solid Pods 和规则语言 Prova 等技术实现了在线通信的两个基本用例。第一个用例展示了一个平台的场景,该平台旨在通过限制未成年人在场时发布某些内容的能力来保护青少年免受潜在有害内容的侵害。第二个用例旨在通过提供反仇恨言论来识别和反驳在线有问题的言论。反仇恨言论是利用个人属性生成的,以吸引用户。这项研究为未来在线平台的 DSA 合规性奠定了基础。这项工作提出了一种在仇恨言论的不同法律和道德定义下进行推理的新颖方法,并计划了合适的反仇恨言论。总体而言,该平台为用户提供了合适的保护以及更可解释和个性化的响应。讨论了仇恨言论检测服务、聊天平台和 Prova 中的推理,并概述了内容审核和算法仇恨言论检测的潜在好处。概述了 DSA 合规性的一些重要方面。

我想挣脱束缚!具有社会等级制度的多主体环境中大语言模型的说服和反社会行为

分类: 计算和语言, 人工智能, 计算机与社会, 多代理系统

作者: Gian Maria Campedelli, Nicolò Penzo, Massimo Stefan, Roberto Dessì, Marco Guerini, Bruno Lepri, Jacopo Staiano

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07109v2

摘要: 随着基于大型语言模型 (LLM) 的智能体变得越来越自主,并且能够更自由地相互交互,研究它们之间的交互对于预测突发现象和潜在风险变得至关重要。我们从广受欢迎的斯坦福监狱实验中汲取灵感,通过研究大语言模型代理人在严格社会等级制度下的互动模式,为这一领域的研究做出了贡献。我们通过专门研究两种类型的现象来做到这一点:模拟场景中的说服和反社会行为,涉及一名警卫和一名试图实现特定目标(即获得额外的院子时间或越狱)的囚犯特工。利用 200 个实验场景,在五个不同的流行大语言模型中进行总共 2,000 次机器与机器对话,我们提供了一组值得注意的发现。我们首先记录了一些模型如何在权力动态发挥作用的多代理设置中始终无法进行对话。然后,对于能够进行成功交互的模型,我们凭经验证明智能体设定的目标如何主要影响其说服力,而对智能体的反社会行为的影响可以忽略不计。第三,我们强调特工的角色,特别是警卫的个性,如何推动囚犯成功说服的可能性和反社会行为的出现。第四,我们表明,即使没有明确提示特定的个性,反社会行为也会通过简单地分配代理角色而出现。这些结果对交互式大语言模型代理人的发展及其社会影响的争论具有重要意义。

多智能体交互的学习责任分配:具有控制障碍函数的可微优化方法

分类: 系统与控制, 机器学习, 多代理系统, 机器人技术, 系统与控制

作者: Isaac Remy, David Fridovich-Keil, Karen Leung

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07409v1

摘要: 从自动驾驶到包裹递送,确保安全而高效的多智能体交互具有挑战性,因为交互动态受到社会规范和情境线索等难以建模的因素的影响。了解这些影响有助于设计和评估具有社会意识的自主代理,其行为与人类价值观一致。在这项工作中,我们试图通过责任的视角来编纂管理安全多智能体交互的因素,即智能体愿意偏离其所需的控制以适应与他人的安全交互。具体来说,我们提出了一种基于控制障碍函数和可微优化的数据驱动建模方法,可以有效地从数据中学习代理的责任分配。我们在合成和现实世界的数据集上证明,我们可以获得对智能体在当前环境下调整其行为以确保他人安全的程度的可解释和定量的理解。

我想挣脱束缚!具有社会等级制度的多主体环境中大语言模型的反社会行为和说服能力

分类: 计算和语言, 人工智能, 计算机与社会, 多代理系统

作者: Gian Maria Campedelli, Nicolò Penzo, Massimo Stefan, Roberto Dessì, Marco Guerini, Bruno Lepri, Jacopo Staiano

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07109v1

摘要: 随着基于大型语言模型 (LLM) 的智能体变得越来越自主,并且能够更自由地相互交互,研究它们之间的交互对于预测突发现象和潜在风险变得至关重要。我们从广受欢迎的斯坦福监狱实验中汲取灵感,通过研究大语言模型代理人在严格社会等级制度下的互动模式,为这一领域的研究做出了贡献。我们通过专门研究两种类型的现象来做到这一点:模拟场景中的说服和反社会行为,涉及一名警卫和一名试图实现特定目标(即获得额外的院子时间或越狱)的囚犯特工。利用 200 个实验场景,在五个不同的流行大语言模型中进行总共 2,000 次机器与机器对话,我们提供了一组值得注意的发现。我们首先记录了一些模型如何在权力动态发挥作用的多代理设置中始终无法进行对话。然后,对于能够进行成功交互的模型,我们凭经验展示了代理人要实现的目标如何主要影响其说服力,而对代理人的反社会行为的影响可以忽略不计。第三,我们强调特工的角色,特别是警卫的个性,如何推动囚犯成功说服的可能性和反社会行为的出现。第四,我们表明,即使没有明确提示特定的个性,简单地分配代理角色也会出现反社会行为。这些结果对交互式大语言模型代理人的发展及其社会影响的争论具有重要意义。

MentalArena:用于诊断和治疗心理健康障碍的语言模型的自玩训练

分类: 计算和语言, 人工智能, 多代理系统

作者: Cheng Li, May Fung, Qingyun Wang, Chi Han, Manling Li, Jindong Wang, Heng Ji

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06845v1

摘要: 精神健康障碍是世界上最严重的疾病之一。大多数患有此类疾病的人无法获得足够的护理,这凸显了诊断和治疗精神健康障碍的培训模型的重要性。然而,在心理健康领域,隐私问题限制了个性化治疗数据的可访问性,使得构建强大的模型变得具有挑战性。在本文中,我们介绍了 MentalArena,这是一个自我对弈框架,通过生成特定领域的个性化数据来训练语言模型,我们获得了一个更好的模型,能够进行个性化诊断和治疗(作为治疗师)并提供信息(作为治疗师)。病人)。为了准确地模拟类人的心理健康患者,我们设计了症状编码器,它从认知和行为的角度模拟真实的患者。为了解决患者与治疗师互动期间的意图偏差,我​​们提出了症状解码器,将诊断的症状与编码的症状进行比较,并根据识别的偏差动态管理患者和治疗师之间的对话。我们根据 6 个基准(包括生物医学 QA 和心理健康任务)对 MentalArena 进行了评估,并与 6 个高级模型进行了比较。我们的模型在 GPT-3.5 和 Llama-3-8b 上进行了微调,明显优于包括 GPT-4o 在内的同类模型。我们希望我们的工作能够激发未来个性化护理的研究。代码可在 https://github.com/Scarelette/MentalArena/tree/main 中找到

即时感染:多代理系统内的 LLM 到 LLM 即时注入

分类: 多代理系统, 人工智能, 密码学和安全

作者: Donghyun Lee, Mo Tiwari

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07283v1

摘要: 随着大型语言模型 (LLM) 变得越来越强大,多智能体系统在现代人工智能应用中变得越来越普遍。然而,大多数安全研究都集中在单代理大语言模型的漏洞上。其中包括提示注入攻击,其中嵌入外部内容的恶意提示会诱骗大语言模型执行意外或有害的操作,从而损害受害者的应用程序。在本文中,我们揭示了一个更危险的向量:多代理系统中的 LLM 到 LLM 提示注入。我们引入了“提示感染”,这是一种新颖的攻击,其中恶意提示在互连的代理之间进行自我复制,其行为与计算机病毒非常相似。这种攻击带来了严重的威胁,包括数据盗窃、诈骗、错误信息和系统范围的破坏,同时在系统中悄悄传播。我们广泛的实验表明,即使代理不公开共享所有通信,多代理系统也很容易受到影响。为了解决这个问题,我们提出了 LLM 标签,这是一种防御机制,与现有的保障措施相结合,可以显着减轻感染传播。这项工作强调了随着多代理 LLM 系统得到更广泛的采用,迫切需要先进的安全措施。

复合学习单元:超越参数更新的广义学习将大语言模型转变为自适应推理机

分类: 机器学习, 人工智能, 计算和语言, 多代理系统

作者: Santosh Kumar Radha, Oktay Goktas

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.08037v1

摘要: 人类学习的蓬勃发展依赖于从错误中学习、通过反馈进行适应以及完善理解过程的能力,而这些能力在静态机器学习模型中往往是缺失的。在这项工作中,我们引入了复合学习单元(CLU),旨在将大型语言模型(LLM)等推理器转变为能够进行广义连续学习的学习器,而无需传统的参数更新,同时通过持续的交互和反馈来增强其推理能力。 CLU 建立在允许推理模型维护和发展动态知识库的架构之上:用于广泛、可重用见解的通用知识空间和用于特定任务学习的提示特定知识空间。通过目标驱动的交互,CLU 迭代地完善这些知识空间,使系统能够动态适应复杂的任务,提取细致入微的见解,并自主地建立在过去的经验基础上。我们通过密码推理任务展示了 CLU 的有效性,其中它们通过反馈不断发展其理解,以发现隐藏的转换规则。传统模型很难掌握底层逻辑,而 CLU 则通过参与迭代的、以目标为导向的过程而表现出色。专门的组件(处理知识检索、提示生成和反馈分析)在强化反馈循环中协同工作。这种方法使 CLU 能够保留过去失败和成功的记忆,自主适应,并有效应用复杂的推理,不断从错误中学习,同时不断取得突破。

与另一个你共同进化:通过顺序合作多智能体强化学习微调大语言模型

分类: 人工智能, 多代理系统

作者: Hao Ma, Tianyi Hu, Zhiqiang Pu, Boyin Liu, Xiaolin Ai, Yanyan Liang, Min Chen

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06101v1

摘要: 强化学习 (RL) 已成为针对特定任务微调大型语言模型 (LLM) 的关键技术。然而,流行的强化学习微调方法主要依赖于 PPO 及其变体。尽管这些算法在一般的 RL 设置中是有效的,但当应用于 LLM 的微调时,它们通常表现出次优的性能和分布崩溃的脆弱性。在本文中,我们提出 CORY,将 LLM 的 RL 微调扩展到顺序协作多智能体强化学习框架,以利用多智能体系统固有的协同进化和涌现能力。在 CORY 中,待微调的大语言模型最初被复制为两个自主代理:先驱者和观察者。先锋根据查询生成响应,而观察者使用查询和先锋的响应生成响应。两个特工一起接受训练。在训练期间,智能体定期交换角色,促进它们之间的合作和共同进化。实验通过分别在 IMDB Review 和 GSM8K 数据集上的主观和客观奖励函数下微调 GPT-2 和 Llama-2 来评估 CORY 的性能。结果表明,CORY 在政策最优性、抗分布崩溃和训练稳健性方面优于 PPO,从而强调了其作为在现实应用中改进大语言模型的卓越方法的潜力。

基于并行学习的机器人群形状形成中的相对定位

分类: 机器人技术, 多代理系统

作者: Jinhu Lü, Kunrui Ze, Shuoyu Yue, Kexin Liu, Wei Wang, Guibin Sun

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06052v1

摘要: 在本文中,我们解决了在外部定位系统不可用的环境中大规模机器人群的形状形成问题。仅通过机载测量有效地完成这项任务仍然很少被探索,并且面临一些实际挑战。为了解决这个具有挑战性的问题,我们提出了以下新颖的结果。首先,为了估计相邻机器人之间的相对位置,提出了一种基于并行学习的估计器。它放宽了最小二乘估计等经典方法所需的持续激励条件。其次,我们引入有限时间协议来确定形状位置。这是通过估计每个机器人和随机分配的种子机器人之间的相对位置来实现的。种子的初始位置标记了形状位置。第三,基于相对定位的理论结果,设计了一种新颖的基于行为的控制策略。该策略不仅能够实现大群机器人的自适应形状形成,而且还增强了机器人间相对定位的可观测性。提供数值模拟结果来验证我们提出的策略与最先进的策略相比的性能。此外,对真实机器人的户外实验进一步证明了我们方法的实际有效性和鲁棒性。

电动汽车充电站预约动态在线定价

分类: 多代理系统, 人工智能

作者: Jan Mrkos, Antonín Komenda, David Fiedler, Jiří Vokřínek

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05538v1

摘要: 向电动汽车(EV)的过渡,加上可再生能源的兴起,将对电网产生重大影响。与传统燃料来源不同,电动汽车的电力受到电网容量、价格波动和电动汽车充电时间长的限制,需要新的定价解决方案来管理需求和供应。本文提出了一种预约电动汽车充电服务的在线动态定价模型,包括预约、停车和充电作为一个整体定价的捆绑服务。我们的方法侧重于个体充电站运营商,采用随机需求模型和基于预期需求的在线动态定价。所提出的模型使用马尔可夫决策过程(MDP)公式来优化计费会话请求的顺序定价决策。一个关键贡献是由用于 MDP 的泊松过程的离散化引入的离散化误差的新颖定义和量化。该模型的可行性通过基于蒙特卡罗树搜索的启发式解决方法得到了证明,为实际应用提供了可行的路径。

用于可扩展且资源高效的集中控制器的基于云的调度机制

分类: 分布式、并行和集群计算, 多代理系统, 机器人技术, 系统与控制, 系统与控制

作者: Achilleas Santi Seisa, Sumeet Gajanan Satpute, George Nikolakopoulos

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.04920v1

摘要: 本文提出了一种新方法来解决在大型系统中部署复杂机器人软件的挑战,即多智能体系统的集中式非线性模型预测控制器(CNMPC)。所提出的方法基于基于 Kubernetes 的调度机制,旨在监控和优化 CNMPC 的运行,同时解决集中控制方案的可扩展性限制。通过利用实时云环境中的集群,所提出的机制有效地减轻了 CNMPC 的计算负担。通过实验,我们证明了我们系统的有效性和性能,特别是在机器人数量发生变化的场景中。我们的工作有助于推进基于云的控制策略,并为增强云控制机器人系统的性能奠定基础。

通过迭代辩论对大型语言模型进行对抗性多智能体评估

分类: 计算和语言, 机器学习, 多代理系统

作者: Chaithanya Bandi, Hari Bandi, Abir Harrasse

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.04663v1

摘要: 本文探讨了使用 LLM 本身评估大型语言模型 (LLM) 输出的最佳架构。我们提出了一个新颖的框架,将大语言模型解释为互动代理群体中的倡导者,使他们能够捍卫自己的答案并通过法官和陪审团系统得出结论。与传统的人工评估或自动化指标相比,这种方法提供了更加动态和全面的评估过程。我们讨论了该框架背后的动机、其关键组成部分以及比较优势。我们还提出了一个概率模型来评估迭代倡导系统所实现的误差减少。最后,我们概述了验证多倡导架构有效性的实验,并讨论了未来的研究方向。

社会支持和影响者在社交媒体社区中的作用

分类: 社交和信息网络, 计算机科学与博弈论, 多代理系统

作者: Junwei Su, Peter Marbach

发布时间: 2024-10-06

链接: http://arxiv.org/abs/2410.04619v1

摘要: 在分布式系统中,个体代理如何协调他们的行动以实现共同目标?这一挑战跨越经济、技术和社会学领域,每个领域都面临可扩展性、异质性以及个人和集体目标之间的冲突。在经济市场中,共同货币有利于协调,这就提出了这样的机制是否可以应用于其他情况的问题。本文探讨了社交媒体平台中的这一想法,其中社交支持(点赞、分享、评论)充当塑造内容生产和共享的货币。我们研究两个关键问题:(1)社会支持能否作为有效的协调工具,以及(2)影响者在内容创作和传播中发挥什么作用?我们的正式分析表明,社会支持可以像经济市场中的货币一样协调用户行为。影响者扮演双重角色,聚合内容并充当信息代理,指导大型市场中的内容生产者。虽然信息的不完善会导致“影响力的价格”和次优的结果,但随着市场的增长,这种价格会降低,从而改善社会福利。这些见解为理解分布式环境中的协调提供了一个框架,并在社会学系统和多智能体人工智能系统中都有应用。

分布式检测对抗性攻击,实现间歇通信多机器人系统的弹性合作

分类: 多代理系统, 机器人技术, 系统与控制, 系统与控制

作者: Rayan Bahrami, Hamidreza Jafarnejadsani

发布时间: 2024-10-06

链接: http://arxiv.org/abs/2410.04547v1

摘要: 本文涉及在对抗性环境中移动自主代理网络的共识和形成,其中一组恶意(受损)代理会受到欺骗攻击。此外,通信网络随时间任意变化,并且会受到间歇性连接的影响,这可能是由拒绝服务 (DoS) 攻击造成的。我们在整体意义上为网络连接提供了明确的界限,从而能够表征系统对特定类别的对抗性攻击的恢复能力。我们还表明,在时间上一致的积分意义上的连接条件下,系统是有限增益 $\mathcal{L}_{p}$ 稳定的,并且只要检测到恶意代理,就可以实现一致指数快速的共识和形成并与网络隔离。我们提出了一个分布式和可重构的框架,为检测恶意代理提供了理论保证,允许其余合作代理的弹性合作。提供模拟研究来说明理论结果。

在 SWE-bench 上探索基于会话测试套件的程序修复的潜力

分类: 软件工程, 人工智能, 多代理系统

作者: Anton Cheshkov, Pavel Zadorozhny, Rodion Levichev, Evgeny Maslov, Ronaldo Franco Jaldin

发布时间: 2024-10-06

链接: http://arxiv.org/abs/2410.04485v1

摘要: 项目级别的自动程序修复可能会在人类活动的各个领域中带来尚未看到的机会。自从 SWE-Bench 挑战赛提出以来,我们已经看到了许多解决方案。补丁生成是程序修复的一部分,基于测试套件的对话式补丁生成已经证明了其有效性。然而,SWE-Bench 上尚未具体评估对话式补丁生成的潜力。本研究报告了旨在评估会话补丁生成对 SWE-Bench 问题的个体有效性的实验结果。实验表明,基于 LLaMA 3.1 70B 的简单对话管道可以在 47% 的情况下生成有效补丁,这与 SWE-Bench 上程序修复的最新技术相当。

GenSim:基于大型语言模型代理的通用社交模拟平台

分类: 多代理系统, 人工智能

作者: Jiakai Tang, Heyang Gao, Xuchen Pan, Lei Wang, Haoran Tan, Dawei Gao, Yushuo Chen, Xu Chen, Yankai Lin, Yaliang Li, Bolin Ding, Jingren Zhou, Jun Wang, Ji-Rong Wen

发布时间: 2024-10-06

链接: http://arxiv.org/abs/2410.04360v2

摘要: 随着大语言模型(LLM)的快速发展,近年来出现了许多利用基于 LLM 的代理来模拟人类社会行为的有前景的研究。虽然之前的工作已经在各个领域展示了巨大的潜力,但其中大部分都集中在涉及有限数量的代理的特定场景,并且缺乏在模拟过程中发生错误时适应的能力。为了克服这些限制,我们提出了一种新颖的基于LLM代理的模拟平台,称为\textit{GenSim},它:(1)\textbf{抽象一组通用函数}来简化定制社交场景的模拟; (2) \textbf{支持十万个智能体},更好地模拟现实环境中的大规模人群; (3) \textbf{结合纠错机制}以确保更可靠和长期的模拟。为了评估我们的平台,我们评估了大规模代理模拟的效率和纠错机制的有效性。据我们所知,GenSim 代表了迈向基于 LLM 代理的通用、大规模、可校正的社会模拟平台的第一步,有望进一步推动社会科学领域的发展。

群体压力的凝聚力:非线性意见动力学中的共识

分类: 物理与社会, 多代理系统, 系统与控制, 系统与控制, 动力系统, 优化与控制

作者: Iryna Zabarianska, Anton V. Proskurnikov

发布时间: 2024-10-05

链接: http://arxiv.org/abs/2410.04301v1

摘要: 这项工作扩展了 Cheng 等人最近的舆论动态模型,强调了群体压力在共识形成中的作用。我们概括了这些发现,将社会影响力算法与一般时变、意见相关的权重和多维意见结合起来,超越了有限的置信动态。我们证明,在一致的积极整合水平下,群体压力持续推动共识,并为收敛速度提供更严格的估计。与以前的模型不同,我们框架中的共同舆论可以在当前意见的凸包内采取任意形式,从而提供适用于现实世界场景的灵活性,例如随机选择参与者的民意调查。这一分析为群体压力机制如何在不同条件下促进共识提供了更深入的见解。

大型语言模型可以实现社会平衡

分类: 计算和语言, 人工智能, 多代理系统, 社交和信息网络, 物理与社会

作者: Pedro Cisneros-Velarde

发布时间: 2024-10-05

链接: http://arxiv.org/abs/2410.04054v1

摘要: 社会平衡是社会学中的一个概念,它指出,如果人口中的每三个人实现一定的积极或消极互动结构,那么整个人口最终会处于一个积极互动的派系中,或者分为两个或多个敌对派系。在本文中,我们考虑了一组交互的大型语言模型(LLM),并研究它们在持续交互后如何实现社会平衡。在三种不同的大语言模型模型中,我们发现社会平衡取决于(i)互动是否根据“关系”、“评估”或“意见”进行更新; (ii) 代理人是否根据同质性或同伴的影响来更新他们的互动; (iii) 大语言模型考虑的同时互动的数量。当实现社会平衡时,其积极或消极互动的特定结构取决于这三个条件,并且在不同的大语言模型模式和规模之间有所不同。交互的稳定性及其更新的理由也因模型而异。因此,社会平衡是由每个大语言模型模型特有的预训练和调整所驱动的。

YOLO-MARL:多智能体强化学习只需要一次大语言模型

分类: 多代理系统

作者: Yuan Zhuang, Yi Shen, Zhili Zhang, Yuxiao Chen, Fei Miao

发布时间: 2024-10-05

链接: http://arxiv.org/abs/2410.03997v1

摘要: 深度多智能体强化学习(MARL)的进步使其成为合作游戏决策的一种有前景的方法。然而,对于 MARL 智能体来说,学习某些游戏环境的合作策略仍然具有挑战性。最近,大型语言模型(LLM)已经表现出新兴的推理能力,使它们成为增强智能体之间协调的有希望的候选者。然而,由于 LLM 的模型大小,频繁推断 LLM 以了解代理可以采取的操作的成本可能会很高。在这项工作中,我们提出了 You Only LLM Once for MARL (YOLO-MARL),这是一个新颖的框架,利用 LLM 的高级任务规划能力来改进合作游戏中多智能体的策略学习过程。值得注意的是,对于每种游戏环境,YOLO-MARL 在 MARL 策略训练过程之前只需要在建议的策略生成、状态解释和规划函数生成模块中与 LLM 进行一次交互。这避免了在训练期间频繁调用 LLM API 所带来的持续成本和计算时间。此外,经过训练的分散式正常规模神经网络策略独立于大语言模型运行。我们在三种不同的环境中评估我们的方法,并证明 YOLO-MARL 优于传统的 MARL 算法。

分布式网络多任务学习

分类: 多代理系统, 机器学习

作者: Lingzhou Hong, Alfredo Garcia

发布时间: 2024-10-04

链接: http://arxiv.org/abs/2410.03403v1

摘要: 我们考虑一种分布式多任务学习方案,该方案考虑具有异构和/或相关数据流的多个线性模型估计任务。我们假设节点可以分为对应于不同学习任务的组,并根据有向网络拓扑进行通信。每个节点异步估计线性模型,并分别受到局部(组内)正则化和全局(跨组)正则化项的影响,以降低噪声和提高泛化性能。我们提供了估计器收敛和任务关系的有限时间表征,并通过两个示例说明了该方案的普遍适用性:随机场温度估计和对不同学区的学生表现进行建模。

使用扩散模型的多机器人运动规划

分类: 机器人技术, 人工智能, 多代理系统

作者: Yorai Shaoul, Itamar Mishani, Shivam Vats, Jiaoyang Li, Maxim Likhachev

发布时间: 2024-10-04

链接: http://arxiv.org/abs/2410.03072v1

摘要: 扩散模型最近已成功应用于广泛的机器人应用,用于从数据中学习复杂的多模态行为。然而,由于学习多机器人扩散模型的样本复杂性较高,先前的工作大多局限于单机器人和小规模环境。在本文中,我们提出了一种仅使用单机器人数据生成符合底层数据分布的无碰撞多机器人轨迹的方法。我们的算法,多机器人多模型规划扩散(MMD),通过将学习的扩散模型与经典的基于搜索的技术相结合来实现这一点——在碰撞约束下生成数据驱动的运动。进一步扩展,我们展示了如何组合多个扩散模型来在单个扩散模型无法很好地泛化的大型环境中进行规划。我们展示了我们的方法在物流环境驱动的各种模拟场景中规划数十个机器人的有效性。查看我们的补充材料中的视频演示以及我们的代码:https://github.com/yoraish/mmd。

AutoML-Agent:用于全管道 AutoML 的多代理 LLM 框架

分类: 机器学习, 人工智能, 计算和语言, 多代理系统

作者: Patara Trirat, Wonyong Jeong, Sung Ju Hwang

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02958v1

摘要: 自动化机器学习 (AutoML) 通过自动执行开发流程中的任务(例如最佳模型搜索和超参数调整)来加速 AI 开发。现有的 AutoML 系统通常需要技术专业知识来设置复杂的工具,这通常非常耗时并且需要大量的人力。因此,最近的工作已经开始利用大型语言模型(LLM)来减轻这种负担,并通过自然语言接口提高 AutoML 框架的可用性,从而允许非专家用户构建数据驱动的解决方案。然而,这些方法通常仅针对人工智能开发流程中的特定流程而设计,并且不能有效地利用大语言模型的固有能力。本文提出了 AutoML-Agent,这是一种专为全流程 AutoML(即从数据检索到模型部署)量身定制的新型多代理框架。 AutoML-Agent 获取用户的任务描述,促进专业 LLM 代理之间的协作,并提供可部署的模型。与现有工作不同,我们不是设计单一计划,而是引入检索增强计划策略来增强探索以搜索更优化的计划。我们还将每个计划分解为子任务(例如,数据预处理和神经网络设计),每个子任务都由我们通过提示并行执行构建的专门代理来解决,从而使搜索过程更加高效。此外,我们提出了多阶段验证来验证执行结果并指导代码生成LLM实施成功的解决方案。使用 14 个数据集对 7 个下游任务进行的广泛实验表明,AutoML-Agent 在自动化整个 AutoML 流程方面实现了更高的成功率,从而在各个领域产生了具有良好性能的系统。

通过生成世界模型为多智能体决策问题提供有根据的答案

分类: 人工智能, 多代理系统

作者: Zeyang Liu, Xinrui Yang, Shiguang Sun, Long Qian, Lipeng Wan, Xingyu Chen, Xuguang Lan

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02664v1

摘要: 生成模型的最新进展刺激了许多领域的重大创新,例如图像生成和聊天机器人。尽管取得了成功,但这些模型经常为复杂的多智能体决策问题提供粗略且具有误导性的解决方案,因为它们错过了人类的试错经验和推理。为了解决这个限制,我们探索了一种范例,将语言引导的模拟器集成到多智能体强化学习管道中,以增强生成的答案。模拟器是一个分别学习动态和奖励的世界模型,其中动态模型包括图像分词器和因果变换器,用于自回归生成交互转换,而奖励模型是通过最大化路径中轨迹的可能性来学习的双向变换器。语言指导下的专家演示。给定当前状态的图像和任务描述,我们使用世界模型来训练联合策略,并通过在动态模型上运行收敛策略来生成图像序列作为答案。实证结果表明,该框架可以通过在星际争霸多智能体挑战基准测试的训练和未见过的任务上表现出卓越的性能来改善多智能体决策问题的答案。特别是,它可以在交互状态下生成一致的交互序列和可解释的奖励函数,为训练未来的生成模型开辟道路。

用于辅导的大型语言模型的教学指导:对生产性失败进行建模的案例研究

分类: 人机交互, 人工智能, 计算机与社会, 多代理系统, 97, I.2; H.5; J.4

作者: Romain Puech, Jakub Macina, Julia Chatain, Mrinmaya Sachan, Manu Kapur

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.03781v1

摘要: 一对一辅导是最有效的教学方法之一。随着大型语言模型 (LLM) 的流行,人们开始努力使用它们来创建对话式辅导系统,让每个人都能享受到一对一辅导的好处。然而,目前的大语言模型主要被培训为有用的助手,因此缺乏关键的教学技能。例如,他们经常快速向学生揭示解决方案,而未能计划更丰富的多轮教学互动。为了在教学场景中使用大语言模型,需要引导他们使用有效的教学策略:我们将这个问题称为教学指导,并认为这对于有效使用大语言模型作为导师至关重要。我们通过形式化辅导策略的概念来解决这个问题,并引入 StratL,一种对策略进行建模的算法,并使用提示来引导大语言模型遵循该策略。作为案例研究,我们根据生产性失败(PF)创建了一个高中数学导师原型,这是一种先进且有效的学习设计。为了在现实环境中验证我们的方法,我们对新加坡的 17 名高中生进行了实地研究。我们定量地表明,StratL 成功引导大语言模型遵循生产性失败辅导策略。我们还彻底调查了大语言模型理想特性是否存在溢出效应,例如其生成类似人类答案的能力。根据这些结果,我们强调了教学指导中的挑战,并提出了进一步改进的机会。我们通过发布生产性故障问题的数据集以及我们的原型和算法的代码来进一步鼓励后续研究。

特工室:通过多步协作生成叙事

分类: 计算和语言, 机器学习, 多代理系统

作者: Fantine Huot, Reinald Kim Amplayo, Jennimaria Palomaki, Alice Shoshana Jakobovits, Elizabeth Clark, Mirella Lapata

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02603v1

摘要: 写引人入胜的小说是一个多方面的过程,结合了精心设计情节、塑造有趣的角色和使用令人回味的语言等元素。虽然大型语言模型(LLM)在故事写作方面展现出前景,但它们目前严重依赖复杂的提示,这限制了它们的使用。我们提出了 Agents' Room,这是一个受叙事理论启发的生成框架,它将叙事写作分解为由专门代理处理的子任务。为了说明我们的方法,我们引入了“告诉我一个故事”,这是一个包含复杂写作提示和人类编写的故事的高质量数据集,以及一个专门为评估长叙述而设计的新颖的评估框架。我们表明,通过利用协作和专业化将复杂的故事写作任务分解为易于处理的组件,Agents' Room 生成的故事比基线系统生成的故事更受专家评估者的青睐。我们通过对生成的输出进行自动化和基于人工的指标进行广泛的分析。

学习多智能体环境中独立 RL 智能体交互模式的出现

分类: 多代理系统, 机器学习

作者: Vasanth Reddy Baddam, Suat Gumussoy, Almuatazbellah Boker, Hoda Eldardiry

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02516v1

摘要: 许多现实世界的问题,例如控制无人机群和城市交通,自然适合建模为多智能体强化学习 (RL) 问题。然而,现有的多智能体强化学习方法经常面临可扩展性挑战,这主要是由于智能体之间引入了通信。因此,一个关键的挑战在于将单智能体强化学习中深度学习的成功应用到多智能体环境中。为了应对这一挑战,我们提出了一种从根本上重新构想多代理环境的方法。与使用单独的网络对每个代理进行单独建模的传统方法不同,我们的方法“自下而上网络”(BUN)采用了独特的视角。 BUN 将多智能体的集合视为一个统一的实体,同时采用专门的权重初始化策略来促进独立学习。此外,我们使用梯度信息动态地在代理之间建立连接,在必要时实现协调,同时保持这些连接有限和稀疏,以有效管理计算预算。我们对各种协作多智能体场景(包括协作导航和交通控制等任务)进行了广泛的实证评估,一致证明了 BUN 相对于基线方法的优越性,并且计算成本大幅降低。

选择比努力更重要:大语言模型实现高效的多智能体探索

分类: 人工智能, 多代理系统

作者: Yun Qu, Boyuan Wang, Yuhang Jiang, Jianzhun Shao, Yixiu Mao, Cheems Wang, Chang Liu, Xiangyang Ji

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02511v1

摘要: 凭借广阔的状态动作空间,高效的多智能体探索仍然是强化学习中长期存在的挑战。尽管追求新颖性、多样性或不确定性引起了越来越多的关注,但在没有适当指导选择的情况下进行探索所带来的多余努力给社区带来了实际问题。本文介绍了一种称为 LEMAE 的系统方法,选择从知识渊博的大型语言模型 (LLM) 中提供信息丰富的任务相关指导,以实现高效的多智能体探索。具体来说,我们以低大语言模型推理成本的区分方式将大语言模型的语言知识转化为对任务完成至关重要的符号关键状态。为了释放关键状态的力量,我们设计了基于子空间的后见之明内在奖励(SHIR),通过增加奖励密度来引导智能体走向关键状态。此外,我们构建了关键状态内存树(KSMT)来跟踪特定任务中关键状态之间的转换,以进行有组织的探索。受益于减少冗余探索,LEMAE 在具有挑战性的基准(例如 SMAC 和 MPE)上大幅优于现有的 SOTA 方法,在某些场景下实现了 10 倍的加速。

SwarmCVT:基于质心 Voronoi 曲面细分的超大规模机器人路径规划

分类: 机器人技术, 多代理系统, 系统与控制, 系统与控制

作者: James Gao, Jacob Lee, Yuting Zhou, Yunze Hu, Chang Liu, Pingping Zhu

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02510v1

摘要: 群体机器人或超大规模机器人 (VLSR) 对于复杂的任务有许多有意义的应用。然而,随着机器人数量的增加,运动控制的复杂性和能源成本迅速增加。为了解决这个问题,我们之前的研究已经制定了采用宏观和微观方法的各种方法。这些方法使微型机器人能够遵循在宏观尺度上观察到的参考高斯混合模型(GMM)分布。因此,宏观层面的优化将会带来整体最优的结果。然而,所有这些方法都需要在无障碍区域内系统地全局生成高斯分量(GC)来构建 GMM 轨迹。这项工作利用质心 Voronoi 细分来系统地生成 GC。因此,它展示了性能改进,同时还确保了一致性和可靠性。

少说废话:基于 LLM 的多代理系统的经济通信管道

分类: 多代理系统, 机器学习

作者: Guibin Zhang, Yanwei Yue, Zhixun Li, Sukwon Yun, Guancheng Wan, Kun Wang, Dawei Cheng, Jeffrey Xu Yu, Tianlong Chen

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02506v1

摘要: 基于大型语言模型 (LLM) 的代理的最新进展表明,集体智慧可以显着超越个人能力,这在很大程度上归功于精心设计的代理间通信拓扑。尽管性能令人印象深刻,但现有的多代理管道本质上会带来大量的令牌开销,并增加经济成本,这对其大规模部署构成了挑战。为了应对这一挑战,我们提出了一种经济、简单、鲁棒的多智能体通信框架,称为$\texttt{AgentPrune}$,它可以无缝集成到主流多智能体系统中,并修剪冗余甚至恶意的通信消息。从技术上讲,$\texttt{AgentPrune}$ 是第一个识别并正式定义当前基于 LLM 的多代理管道中存在的 \textit{通信冗余} 问题,并有效地对时空消息执行一次性剪枝的方法。传递图,产生代币经济且高性能的通信拓扑。六个基准测试的广泛实验表明,$\texttt{AgentPrune}$ \textbf{(I)} 与 $$43.7$ 相比,仅花费 $$5.6$ 成本即可达到与最先进拓扑相当的结果,\textbf {(II)} 无缝集成到现有的多代理框架中,代币减少量为 28.1%\sim72.8%\downarrow$,\textbf{(III)} 成功防御两种类型的基于代理的对抗攻击,成本为 3.5 美元%\sim10.8%\uparrow$ 性能提升。

多智能体系统中面向智能体的规划

分类: 人工智能, 机器学习, 多代理系统

作者: Ao Li, Yuexiang Xie, Songze Li, Fugee Tsung, Bolin Ding, Yaliang Li

发布时间: 2024-10-03

链接: http://arxiv.org/abs/2410.02189v1

摘要: 通过拥有不同专业知识和工具的多个智能体的协作,多智能体系统在解决现实世界问题方面取得了令人瞩目的进展。给定用户查询,元代理作为这些系统中的大脑,需要将查询分解为多个子任务,这些子任务可以分配给能够解决这些问题的合适代理,即所谓的面向代理的规划。在本研究中,我们确定了面向主体的规划的三个关键设计原则,包括可解决性、完整性和非冗余性,以确保每个子任务得到有效解决,从而对原始查询产生满意的响应。这些原则进一步激励我们提出一种在多智能体系统中面向智能体的规划的新颖框架,利用快速的任务分解和分配过程,然后通过奖励模型进行有效且高效的评估。在规划过程中,元智能体还负责评估专家智能体的性能,根据需要及时调整子任务和调度。此外,我们将反馈循环集成到所提出的框架中,以进一步增强此类问题解决过程的有效性和稳健性。大量的实验表明,与单智能体系统和多智能体系统的现有规划策略相比,所提出的框架在解决现实世界问题方面取得了进步。

ComaDICE:具有平稳分布平移正则化的离线协作多智能体强化学习

分类: 机器学习, 多代理系统

作者: The Viet Bui, Thanh Hong Nguyen, Tien Mai

发布时间: 2024-10-02

链接: http://arxiv.org/abs/2410.01954v1

摘要: 离线强化学习(RL)因其能够从预先收集的数据集中学习有效策略而无需进一步的环境交互而受到广泛关注。虽然在单智能体环境中已经证明了有希望的结果,但由于联合状态动作空间大和多智能体行为的复杂性,离线多智能体强化学习(MARL)提出了额外的挑战。离线强化学习的一个关键问题是分布偏移,当优化的目标策略偏离生成数据的行为策略时就会出现分布偏移。由于代理的本地政策和广阔的联合国家行动空间之间的相互依赖,这个问题在 MARL 中更加严重。先前的方法主要通过在 Q 函数或策略空间中纳入正则化来解决这一挑战。在这项工作中,我们在平稳分布空间中引入正则化器,以更好地处理分布偏移。我们的算法 ComaDICE 为离线合作 MARL 提供了一个原则框架,将全局学习策略的固定分布正则化纳入其中,并辅以精心构建的多智能体价值分解策略,以促进多智能体训练。通过对多智能体 MuJoCo 和 StarCraft II 基准的大量实验,我们证明了与最先进的离线 MARL 方法相比,ComaDICE 在几乎所有任务上都实现了卓越的性能。

具有完整性保证的窗口 MAPF

分类: 多代理系统, 人工智能, 机器人技术

作者: Rishi Veerapaneni, Muhammad Suhail Saleem, Jiaoyang Li, Maxim Likhachev

发布时间: 2024-10-02

链接: http://arxiv.org/abs/2410.01798v1

摘要: 传统的多智能体路径查找(MAPF)方法尝试计算无碰撞的整个起始目标路径。然而,对于代理需要快速重新规划的 MAPF 系统来说,计算整个路径可能需要很长时间。解决这个问题的方法通常采用“窗口”方法,并且仅尝试寻找小窗口时间步长范围内的无碰撞路径。这种适应是以不完整性为代价的。当前所有窗口方法都可能陷入死锁或活锁。我们的主要贡献是引入我们的框架 WinC-MAPF,用于实现窗口 MAPF 的完整性。我们的框架使用来自单代理实时启发式搜索算法的启发式更新见解以及来自 MAPF 算法的代理独立思想。我们还开发了单步 CBS (SS-CBS),这是使用对 CBS 的新颖修改来实现的该框架的实例。我们展示了仅计划一个步骤并更新启发式的 SS-CBS 如何有效解决现有窗口方法失败的棘手场景。

在深度多智能体强化学习中,社会协调使刻板期望和行为在几代人中得以延续

分类: 多代理系统

作者: Rebekah A. Gelpí, Yikai Tang, Ethan C. Jackson, William A. Cunningham

发布时间: 2024-10-02

链接: http://arxiv.org/abs/2410.01763v1

摘要: 尽管刻板印象常常被认为在道德上令人反感,但它是社会群体的一个共同特征,这种现象常常被归因于偏见动机或处理信息能力的限制。我们认为,这种持续盛行的原因之一是,在社会协调的背景下,对他人行为的预先存在的期望可以改变一个人的社会伙伴的行为,从而形成人们期望看到的刻板印象,即使在没有社会协调的情况下也是如此。陈规定型观念的其他潜在来源。我们使用动态社会协调的计算模型来说明这种“反馈循环”如何出现,从而产生和巩固刻板行为,然后表明人类在任务中的行为会产生类似的反馈循环。值得注意的是,人们对任务的选择与社会主导地位或制度合理性无关,这表明有偏见的动机对于维持这些刻板印象并不是必要的。

高性能、内存高效且可扩展的多代理强化学习

分类: 机器学习, 人工智能, 多代理系统

作者: Omayma Mahjoub, Sasha Abramowitz, Ruan de Kock, Wiem Khlifi, Simon du Toit, Jemma Daniel, Louay Ben Nessir, Louise Beyers, Claude Formanek, Liam Clark, Arnu Pretorius

发布时间: 2024-10-02

链接: http://arxiv.org/abs/2410.01706v1

摘要: 随着多智能体强化学习(MARL)领域向更大、更复杂的环境发展,在保持内存效率和许多智能体的可扩展性的同时实现强大的性能变得越来越重要。尽管最近的研究已经产生了几种先进的算法,但迄今为止,还没有一个算法能够同时完全解决所有这些关键属性。在这项工作中,我们介绍了 Sable,这是一种新颖且理论上合理的算法,它将保留机制从保留网络适应到 MARL。 Sable 基于保留的序列建模架构允许在计算上有效地扩展到大量代理,并维护长时间的上下文,使其非常适合大规模部分可观察的环境。通过对六种不同环境的广泛评估,我们展示了 Sable 如何在大多数任务中显着优于现有的最先进方法(45 项中的 34 项,大约为 75%)。此外,当我们扩展代理数量、处理具有一千多个代理的环境时,Sable 表现出稳定的性能,同时内存使用量呈线性增长。最后,我们进行消融研究,以隔离 Sable 性能增益的来源并确认其有效的计算内存使用。我们的结果凸显了 Sable 的性能和效率,将其定位为大规模 MARL 的领先方法。

相关